Agent全景图:分类、流程与主流产品

Catalogue
  1. 一、什么是 AI Agent?
  2. 二、AI Agent 分类体系
    1. 2.1 视角一:按能力架构分类(学术经典)
    2. 2.2 视角二:按交互方式 & 自主程度分类(工业主流)
      1. 🔵 类型一:对话增强型(Chat + Agentic Tools)
      2. 🟠 类型二:通用自主型(General-Purpose Autonomous)
      3. 🟢 类型三:计算机控制型(Browser / Computer Use)
      4. 🟣 类型四:多智能体协作型(Multi-Agent)
  3. 三、AI Agent 完整执行流程
    1. 3.1 执行流程图
    2. 3.2 各主流框架实现方式对比
  4. 四、多轮 LLM 交互:一个任务需要几次调用?
    1. 4.1 多轮交互带来的工程挑战
      1. 挑战一:Context 窗口膨胀
      2. 挑战二:错误累积(Error Propagation)
  5. 五、2025 年主流 Agent 产品版图
  6. 六、总结
AI Agent 全景图 分类、流程与主流产品一次讲清 2025 · 技术深度解析
📋 摘要
AI Agent 是当前 AI 应用落地的核心范式之一。本文系统梳理了 Agent 的能力分类体系、完整执行流程、多轮 LLM 交互机制,以及截至 2025 年的主流产品格局。无论是工程师选型、产品经理规划路线,还是希望深入理解 Agent 底层逻辑的技术读者,本文都提供了完整的参考框架。

一、什么是 AI Agent?

从本质上说,AI Agent 是一种能够「感知环境 → 自主决策 → 执行行动 → 观察结果」并持续循环的智能系统。与传统的一问一答式 LLM 使用不同,Agent 具备三个核心特征:

  • 自主性(Autonomy):无需人类每步干预,能根据目标自行规划并采取行动。
  • 工具使用(Tool Use):可调用外部工具,如搜索引擎、代码执行器、数据库、API 等。
  • 持久记忆(Memory):维护跨轮次的上下文,积累知识,而不是每次从零开始。
💡 核心公式:LLM 是 Agent 的大脑,但 Agent ≠ LLM。
    Agent = LLM + 记忆 + 工具 + 执行循环

二、AI Agent 分类体系

AI Agent 的分类可以从两个维度来理解:经典的能力架构分类,以及更贴近工程实践的自主程度与交互方式分类。

2.1 视角一:按能力架构分类(学术经典)

这是由 Russell & Norvig 在《人工智能:现代方法》中奠定的框架,描述了 Agent 从简单到复杂的演进层次:

类型 核心能力 局限性 典型代表
简单反射型
Simple Reflex
条件→动作规则
无记忆,无规划
无法处理未见过的情况 早期规则型聊天机器人
邮件自动回复系统
模型型
Model-Based
维护内部世界状态
能记住上下文
无目标导向,被动响应 当前基础对话 AI
ChatGPT 对话模式
目标型
Goal-Based
任务分解
多步规划达成目标
不衡量方案优劣 早期 BabyAGI
LangChain ReAct Agent
效用型
Utility-Based
多方案评分
选择最优行动
需定义准确效用函数 金融交易 Agent
推荐系统 Agent
学习型
Learning Agent
从经验自我改进
持续优化决策
训练成本高,收敛慢 Devin(代码调试)
AlphaCode

2.2 视角二:按交互方式 & 自主程度分类(工业主流)

🔵 类型一:对话增强型(Chat + Agentic Tools)

本质是在对话框中加入工具调用能力,用户保持一问一答节奏。自主程度 L1~L3,是目前用户基数最大的 Agent 形态。

产品 核心特点 工具能力
ChatGPT (OpenAI)最广泛用户基础,插件生态丰富搜索、代码执行、图像生成、浏览
Claude (Anthropic)超长上下文、强推理、工具调用文件分析、搜索、代码执行
Gemini (Google)与 Google 搜索深度集成,多模态实时搜索、图像理解、文档分析
Perplexity Pro搜索增强型,实时引用来源联网搜索、学术库、多源整合
Microsoft Copilot深度集成 Office 365 套件Word/Excel/PPT 操作、邮件、日历

🟠 类型二:通用自主型(General-Purpose Autonomous)

接受一个高层目标后自行规划执行,人类干预较少。自主程度 L3~L5,是当前技术边界探索最活跃的方向。

产品 核心特点 适用场景
Manus AI跨应用自主执行,连接浏览器、代码编辑器复杂信息汇总、自动化工作流
OpenAI Deep Research长程推理 + 多轮联网搜索,自动输出报告学术研究、竞品分析、市场调研
Claude Code终端接口,不限于写代码,可执行系统级任务代码库分析、文件操作、自动化脚本
AutoGPT2023 年先驱,定义自主 Agent 概念范式实验性任务,开源社区探索
MetaGPT多角色协作,模拟软件开发团队软件项目从需求到代码全流程

🟢 类型三:计算机控制型(Browser / Computer Use)

直接操控浏览器或操作系统 UI,像数字人类一样使用电脑。自主程度 L4~L5,行动边界最广也最具争议。

产品 控制范围 特色
OpenAI Operator专属浏览器,网页操作订餐、购票、填表单,面向普通用户
Claude Computer Use完整桌面(鼠标+键盘)跨应用协调,Anthropic API 提供
Google Project MarinerChrome 浏览器Gemini 驱动,Google 生态深度集成
Devin (Cognition)完整虚拟机(IDE+浏览器+终端)软件工程专用,可自主完成完整项目
Browser Use(开源)多 LLM 后端支持Python 库,开发者自托管首选

🟣 类型四:多智能体协作型(Multi-Agent)

多个专业 Agent 组成协作团队,通过相互通信分工完成大型复杂任务。

框架 / 产品 协作模式 适用场景
AutoGen(微软)Agent 互相对话、辩论、审查需要验证和反驳的推理任务
CrewAI定义角色分工(研究员+作家+审校)内容生产、市场分析、报告生成
LangGraph状态机驱动的 Agent 工作流生产级复杂工作流,需精确控制
Amazon Bedrock Agents企业级托管,内置安全护栏企业内部自动化,合规要求高
OpenClaw(前Clawdbot)本地自托管,消息平台驱动个人 24h 助理,隐私优先场景
📊 自主程度对比:
对话增强型 L1-3 通用自主型 L3-5 计算机控制型 L4-5

自主程度越高,能力越强,但风险和不可预测性也越高。


三、AI Agent 完整执行流程

理解 Agent 的执行流程,是理解所有 Agent 产品差异的关键。几乎所有主流框架都在这套元流程上做裁剪或强化,而不是推翻重建。

3.1 执行流程图

AI AGENT 执行流程 Execution Flow & Data Pipeline STEP 1 👤 用户输入 自然语言 Query / Task 文本 · 图像 · 语音 · 文件 STEP 2 👁️ 感知 & 解析 多模态输入处理 意图识别 · 上下文提取 STEP 3 🗄️ 记忆检索 读取相关历史 & 知识 向量检索 · 对话历史 STEP 4 ⚙️ 规划 & 推理 LLM 分解任务 · 制定计划 CoT · ReAct · ToT STEP 5 🎯 动作决策 选择工具 / 直接回答 Function Calling · API 原始输入 结构化意图 增强上下文 执行计划 CORE ENGINE 🧠 LLM Transformer · Attention 推理 / 生成 / 决策 GPT-4 · Claude · Gemini · Llama Prompt → Completion Temperature · Top-p · Max tokens 结构化输入 记忆上下文 推理指令 STEP 6A 🔧 工具执行 调用外部工具 / API 搜索 · 计算 · 数据库 STEP 6B 💬 直接生成 无需工具时直接回答 文本生成 · 分析 · 创作 STEP 7 🔍 观察 & 评估 分析工具返回结果 是否完成目标? STEP 8 💾 记忆更新 存储经验 & 结果 写入短期 / 长期记忆 工具调用指令 生成内容 工具结果 观察数据 🔄 未完成 → 继续推理 ✅ 最终输出 完整答案 / 任务结果 / 行动报告 呈现给用户 任务完成 ✓ 决策结果 完成? FLOW LEGEND 主流程 重试循环 记忆读写 工具调用 💡 核心循环:感知→检索→规划→行动→观察→(判断)→输出 / 继续推理

3.2 各主流框架实现方式对比

框架 / 模式 规划方式 循环控制 特色
ReAct(LangChain)每步交替 Reasoning + Acting步骤级循环最接近通用流程,透明度高
Plan-and-Execute先完整规划再逐步执行计划与执行分离规划稳定,适合结构清晰任务
AutoGPT / BabyAGI先生成完整 Task List外层任务列表循环高度自主,容易越跑越偏
Reflection Agent执行后自我评估并修正结果驱动反思循环质量最高,但调用次数多
Multi-Agent多 Agent 分工规划Agent 间消息循环适合复杂大任务,可并行
🔑 核心循环:感知 → 检索 → 规划 → 行动 → 观察 → 判断(完成?)→ 输出 / 继续
这个 OODA 循环(观察-判断-决策-行动)是所有 Agent 的共同本质。

四、多轮 LLM 交互:一个任务需要几次调用?

这是很多开发者初次接触 Agent 时最大的认知盲区:一个用户输入,可能会触发大量后台 LLM 调用。每一轮「推理→工具→观察→再推理」就是一次完整的 LLM 交互。

任务复杂度 典型场景 LLM 调用次数
极简直接回答,无需工具1 次
简单单次工具调用(如搜索一次)2~3 次
中等多步骤任务(查询→计算→汇总)4~8 次
复杂多工具、多阶段综合任务10~20 次
自主型任务AutoGPT 类长程任务无上限 ♾️

4.1 多轮交互带来的工程挑战

挑战一:Context 窗口膨胀

每轮都要将上轮推理和工具返回结果追加进 Prompt,Context 随轮次线性增长。到第 10 轮时,一个任务可能已消耗数万 Token。主流解法:

  • 记忆压缩(Memory Summarization):定期将历史轮次总结成摘要,替换原始对话。
  • 记忆分层(Hierarchical Memory):热记忆保留近期上下文,冷记忆归档到向量数据库按需检索。
  • 滑动窗口(Sliding Window):只保留最近 N 轮,丢弃过早的历史。

挑战二:错误累积(Error Propagation)

第 3 轮的推理偏差会在第 5 轮被放大,第 8 轮可能完全跑偏。主流解法:

  • 自我反思(Self-Reflection):每步执行后显式让 LLM 评估是否符合目标。
  • Critic Agent:引入独立评审 Agent 对主 Agent 的行动进行纠偏。
  • 最大步数限制(max_iterations):设置硬上限防止无限循环,保障系统可控性。
⚠️ 工程建议:生产环境部署 Agent 时,务必设置 max_iterations(建议 10~20)、记忆压缩策略,以及 Fallback 机制,否则容易出现超时、超额计费、结果漂移等问题。

五、2025 年主流 Agent 产品版图

类型 代表产品 开源 部署方式 核心优势
🔵 对话增强型ChatGPT / Claude / Gemini云端 SaaS用户体验最成熟,生态最完整
🟠 通用自主型Manus AI / Deep Research云端 SaaS任务自主程度高,少需人工干预
🟠 通用自主型Claude Code / AutoGPT部分 ✅本地/云端开发者友好,可定制性强
🟢 计算机控制型Operator / Computer Use云端 API最广行动边界,可操控任意 UI
🟢 计算机控制型Devin (Cognition)云端 SaaS软件工程专用,完整虚拟环境
🟣 多 Agent 协作AutoGen / CrewAI本地部署灵活组合,适合复杂工作流
🏠 本地自托管型OpenClaw(前Clawdbot)本地自托管数据隐私,24h 在线个人助理

值得关注的 2025 年新趋势:

  • 底层模型趋同:几乎所有主流 Agent 产品都依赖 GPT-4、Claude、Gemini 系列,产品差异越来越体现在工具链整合和架构设计上。
  • 标准协议出现:Anthropic 发布 MCP(Model Context Protocol),尝试标准化 Agent 与外部工具的接口。
  • 本地化 Agent 兴起:OpenClaw(前身 Clawdbot)等开源本地 Agent 走红,显示用户对数据隐私的强需求。
  • Multi-Agent 走向生产:AutoGen、LangGraph 等框架逐渐从实验走向生产部署。

六、总结

AI Agent 经历了从「规则→记忆→目标→学习」的能力演进,又在工程实践中分化出对话增强、通用自主、计算机控制、多智能体协作四大产品类型。每种类型在自主程度、风险控制、用户体验上各有取舍。

在执行层面,Agent 的本质是一个持续循环的「感知-推理-行动-观察」系统,一个复杂任务可能需要数十次 LLM 调用。理解这一点,是设计可靠 Agent 系统的前提。

展望未来,随着 LLM 能力提升、工具协议标准化(如 MCP)和本地模型成熟,AI Agent 将从开发者工具快速向普通用户的日常助理演进。

LLM 是 Agent 世界的 CPU,真正的竞争在架构层。
© 2025 技术博客 · AI Agent 全景图